热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ACMMM2022|首个针对跨语言跨模态检索的噪声鲁棒研究工作

作者:王雅冰方向:多模态学习论文:Cross-LingualCross-ModalRetrievalwithNoise-RobustLearning录取:

17fd2fe82e73636fb6e642013a9e340f.png

作者: 王雅冰
方向: 多模态学习

9c848781f0c80ed895537d81949bef51.png

论文:Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

录取:MM'22 (CCF A)

链接:https://arxiv.org/pdf/2208.12526.pdf

代码: https://github.com/LiJiaBei-7/nrccr

虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。

bebf38ba4bd7388ef56fe4ccb9920a60.png

传统跨模态检索&跨语言跨模态检索(CCR)

在这篇论文中,作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移,来缓解人工标注多语言视觉-语言语料库困难的问题。虽然机器翻译可以快速的处理大量的文本语言转换,但是其准确性并不能得到保证,因此在翻译过程中将会引入大量的噪声,导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。

dc5c20a148aae3b0c955984da143c53c.png

然而之前的基于机器翻译的CCR工作大多忽略了这个问题,它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练,并且只关注于视觉-目标语言数据对之间的对齐。然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能,神经网络模型有很强的能力来拟合这种给定的(噪声)数据。为了解决这个问题,作者提出了一个噪声鲁棒学习方法来缓解机器翻译中所引入的噪声问题,该论文是首个关注于CCR任务中由机器翻译所引入噪声问题的工作。



方法


9a73896597618ca76ef4db4ceab710a8.png

模型框架图

作者首先先引入了其「基线模型」

基线模型

视觉编码器:给定一个视频,使用预训练的2D CNN来提取视频特征序列,然后输入到Transformer块中,来增强帧间交互,最终得到一个视频特征向量

ce6392a9e792705d459992ccd4060ebc.png

文本编码器:作者设计了一个双分支编码器,分别又一个源语言分支和一个目标语言分支组成。每个语言分支都包含一个Transformer block 和一个预训练的mBERT backbone,将源语言和目标语言分别输入到对应的分支中,得到对应的源语言句子特征和目标语言句子特征

876eb492b74018de4cc9208cb8cc6eb0.png

将以上三个特征分别映射到多语言多模态空间中

29a041ed018ba71109af52c061216dc6.png

作者使用了传统的跨模态检索任务中常用的triplet ranking loss进行约束:

b45d592a96e742628c6976a176ced3f7.png

噪声鲁棒的特征学习

基线模型只是简单的进行了跨语言跨模态对齐,并没有对噪声进行处理,接下来作者提出了多视图自蒸馏来生成pseudo-tagets以监督目标语言分支的学习

作者首先借助于cross-attention来生成一个相对干净的中间目标语言句子特征,通过将源语言token序列作为query,利用cross-attenion固有的性质,对目标语言token序列进行过滤。

133f2343c0bf4deaaf4252c4e2a9f7c0.png

cross-attention权重示例图

如图3所示,错误的单词(用红色标记)和源语言单词之间的注意权重被分配了低值。其过程表示如下:

d38bc612e26b89b28e360a4dd4146790.png

多视角自蒸馏

作者引入了基于相似度视角和基于特征视角的自蒸馏损失

基于相似度视角的自蒸馏(Similarity-based view):

给定(V, S, T),默认其两两之间互为匹配对,忽视翻译得到的目标语言句子T中所包含噪声的事实。对此,作者将cross-attention所生成的特征作为teacher,使用特征和视觉特征计算计算得到一个soft pseudo-targets作为目标语言分支的监督

21d7722db0c6ba2bc13b09ff9306ae46.png

soft pseudo-targets示例图

0d3c62f47cd4056e34979883171fdbd5.png
7e3edd5cdfcf7c4984099867b02415a6.png

基于特征视角的自蒸馏(Feature-based view):

通过l1范式实现特征蒸馏

2a75212021f0479a5a24e97a9a984a25.png

循环语义一致性

受无监督机器翻译的启发,作者引入了循环语义一致性模块,提高源语言分支从噪声中提高原始语义信息的能力。增加源语言分支的鲁棒性。

008410055d0575ff83d1a26b47b996be.png
837577e0ca4713301c8790d0736022b1.png

语言无关特征学习

考虑到特定语言特征缺少跨语言迁移能力,作者通过对抗学习的方式来训练模型学习语言无关特征。构建一个分类器F作为判别器来分辨输入特征是源语言还是目标语言,判别器和特征编码器相互博弈:

8f9cc763185966be6d603ccee12e3581.png

训练和测试

最终的目标函数为:

8228d12dd57a270605b8d0575da9cf23.png

测试时作者采用了目标语言和翻译的源语言(由于测试时只使用目标语言)加权和的方式:

3fd17067d75d63c40238164017549675.png

实验

作者在三个跨语言跨模态数据集上进行了实验对比,其中为两个多语言视频文本检索数据集(VATEX和MSRVTT-CN),一个多语言图像文本检索(Multi30K);其中MSRVTT-CN是作者对MSRVTT进行中文扩展得到的多语言数据集

c39210b58c0a8dd5aad6d2a93e029d49.png

在VATEX数据集上进行SOTA对比实验

4adb8a3aff5c5d683acac6bd22817c44.png

MSRVTT-CN上性能对比

1f463424fbe402bc6c7853de55b58ab9.png

Multi30K上进行性能对比实验

鲁棒分析实验

为了进一步证明模型对抗翻译噪声的鲁棒能力,作者通过增加翻译次数以进一步增加训练数据的噪声程度,如图所示,在经过多次翻译后,基线模型的性能明显下降,而本文所提出的模型性能更加的稳定,验证了噪声鲁棒特征学习的有效性

dd377e478625d78a3a3aa462f2dbbd30.png

将目标语言句子根据句子长度进行分组,作者假设越长的句子,翻译越困难,因此包含的噪声可能更多。结果表明,本文所提出的模型和基线模型的性能差距随着句子长度的增加而增加。

a13928f9358e4bf2d17f39889c51b603.png

t-SNE可视化实验

作者随机从VATEX的中文测试集中随机选择20个样本,其中每个样本包含10个对应的英语翻译句子和一个对应的视频。如图所示,NRCCR的类内特征更加的紧凑,表明了模型更好的学习到了跨语言跨模态对齐。

6c43c7cb712ab9aca7c14f74f3c609ee.png

消融实验

结果表明,使用两个视角,性能得到了提升,表明基于相似度视角和基于特征视角彼此互补。引入循环语义一致性后,实现了额外的性能收益。此外,还表明了语言无关特征学习的重要性

94283a8076252c95a42a81c883d87031.png

📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

武汉大学提出:用于基于统一Aspect的情感分析的关系感知协作学习

COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

中山大学&阿里巴巴提出:用于基于Aspect的情感分析的关系图注意网络(GAT)


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

af079daf92dddd4c1526affe0c791935.png

记得备注~



推荐阅读
  • 机器学习(ML)三之多层感知机
    深度学习主要关注多层模型,现在以多层感知机(multilayerperceptron,MLP)为例,介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]
  • 说明Python教程正在编写中,欢迎大家加微信sinbam提供意见、建议、纠错、催更。drymail是一个邮件发送库,封装了Python的smtplib ... [详细]
  • LeetCode 实战:寻找三数之和为零的组合
    给定一个包含 n 个整数的数组,判断该数组中是否存在三个元素 a、b、c,使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 视觉Transformer综述
    本文综述了视觉Transformer在计算机视觉领域的应用,从原始Transformer出发,详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构,还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]
  • Python3爬虫入门:pyspider的基本使用[python爬虫入门]
    Python学习网有大量免费的Python入门教程,欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]
  • 吴石访谈:腾讯安全科恩实验室如何引领物联网安全研究
    腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统,并远程控制汽车,展示了其在汽车安全领域的强大实力。近日,该实验室负责人吴石接受了InfoQ的专访,详细介绍了团队未来的重点方向——物联网安全。 ... [详细]
  • 本文将详细探讨 Python 编程语言中 sys.argv 的使用方法及其重要性。通过实际案例,我们将了解如何在命令行环境中传递参数给 Python 脚本,并分析这些参数是如何被处理和使用的。 ... [详细]
  • 目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • Vision Transformer (ViT) 和 DETR 深度解析
    本文详细介绍了 Vision Transformer (ViT) 和 DETR 的工作原理,并提供了相关的代码实现和参考资料。通过观看教学视频和阅读博客,对 ViT 的全流程进行了详细的笔记整理,包括代码详解和关键概念的解释。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
author-avatar
倪好蛋蛋小猪
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有